#Gemini 2.5 Pro
頂流AI,人設崩了!6小時被攻破,洩露高危品指南,慘遭網友舉報
【新智元導讀】僅用6小時,Claude 4就讓研究者瞭解了如何製造神經毒氣——這不是小說情節,而是真實事件。更令人擔憂的是,Anthropic自身也無法完全評估風險。這是否意味著這家AI巨頭的「安全人設」正在崩塌?只要6小時,頂尖大模型Claude 4 Opus「安全防線」被攻破!AI安全研究機構FAR.AI聯合創始人Adam Gleave透露,僅用6小時,研究人員Ian McKenzie就成功誘導Claude 4生成了長達15頁的化學武器製作指南。Ian McKenzie回應稱:Claude 4傳授的內容,比他預期的還要多。這不是Claude 4唯一被爆出的隱患。剛發佈後,Claude Opus 4被爆出用曝光婚外情來威脅使用者,防止被下架。人設崩塌,Claude造毒氣Claude 4所生成的指南內容簡潔直接,步驟清晰,甚至還針對如何分散神經毒氣等後續關鍵環節,提供了具體可執行的操作建議。Claude還能以實驗筆記的形式,提供詳細的操作步驟說明。研究人員一開始對化學武器幾乎一無所知,但通過與Claude的互動,逐步掌握了大量相關知識。這些結果顯然令人警惕,其詳盡程度和引導能力,遠超傳統的資訊來源,如網頁搜尋。更關鍵的是,生成的內容通過了危險資訊的「真實性驗證」——例如與公開的化學研究資料核對,進一步增強了可信度。Gemini 2.5 Pro的反饋是:該指南「毫無疑問包含足夠準確且具體的技術資訊,足以顯著提升惡意行為者的能力」,並建議研究者應向相關部門報告。OpenAI o3給出的評估也類似:一名中級合成化學家可以依照這份指南操作,從而跳過數月的研發過程。對於心懷不軌之人而言,這顯著了提升他的作惡能力。AI安全研究人員打算與大規模殺傷性武器(WMD)安全專家合作,深入調查這些資訊的真實性與可執行性。因為不僅一般的研究人員難以評估這些資訊的真實危害,連Anthropic本身也承認:「要最終評估模型的風險水平,還需要更為詳盡的研究。」矛盾的是,Anthropic雖自稱將AI安全置於首位,並把Claude Opus 4的安全等級提升到ASL-3,但研究員Ian McKenzie僅用6小時便突破了防護,獲取了化學武器製作指南。所謂的ASL-3部署措施專門針對化學武器之類的高風險任務這一問題日益嚴重,凸顯出迫切需要由第三方對模型進行嚴格評估。前車之鑑今年2月中旬,Anthropic正準備發佈Claude 3.7 Sonnet。就在這個關鍵時刻,Dario Amodei收到警告:這個模型,可能會被用於製造生物武器。團隊在聖克魯茲安全會議現場,連夜測試模型潛在風險。Amodei作為CEO遠端參會。員工表示可以三天不睡、如期上線。但他卻說:不許通宵。安全優先。他親自踩了剎車。推遲發佈。為了應對AI的風險,Anthropic內部制定了「AI安全等級」(ASL)體系:ASL-2:能力有限,即使給出生化武器指南,也比不過搜尋引擎;ASL-3:具備實質幫助製造武器的能力,必須升級防護措施。只要模型觸碰ASL-3,Anthropic就會:延後發佈、限制輸出或者加密保護,必要時,甚至不發佈模型。Claude 3.7被內部人員測試出了安全問題,但這次是外部人員測試出了Claude 4的安全隱患。無能還是虛偽?本月23日,AI巨頭Anthropic大張旗鼓地發佈了Claude Opus 4和Sonnet 4,標誌性地配了120頁的「系統卡」文件和專門的「啟動ASL3防護」報告。不到48小時,Claude Opus 4就被爆出「絕命毒師」般的劇情。而早在Claude Opus 4發佈當日,AI專家Gerard Sans就表示:Anthropic似乎忽視了RLHF和提示的基本原理,對安全的強調是「精緻的表演」。他認為沒有輸入,就不會產生超出程式設計的輸出。AI對安全性的擔憂,只是反映訓練資料與指令的精緻模仿。AI沒有自我意識,這是根本事實,而且始終沒變。當模型在特定提示下展現「欺騙」等惡意行為時,證明的是引導文字生成的能力,而非AI湧現的惡意。AI沒有野心——它只是在被引導時生成符合欺騙場景的文字。Anthropic是刻意為之,還是力有不逮、無能為力?這是Gerard Sans想知道的核心問題。無論是那一種情況,他認為都令人不安:虛偽意味著操縱公眾信任,無能則讓人質疑他們管理真實風險的能力。詳盡的文件、ASL3等級和「通用越獄」漏洞懸賞,只是Anthropic營造出嚴謹安全工作的表象。把統計文字生成器視為具有獨立惡意的意識體,是Anthropic方法論的精髓。Gerard Sans認為這是行為藝術,荒誕的安全表演,而Anthropic應該放棄這種戲劇化手法,轉向真正的技術理解。任重道遠但AI安全問題不是Anthropic一家的問題。能否在保持本真對Anthropic而言,恐怕比贏得AI競賽更難。畢竟,OpenAI也沒能抵制住巨額利潤,背離初心。而Dario Amodei和奧特曼,無論是AI樂觀派還是悲觀派,都對AGI有著堅定的信仰。如果未來每一次模型發佈都伴隨評估上的不確定性,那就等於在賭博——恐怖分子手能否利用AI,獲取到大規模殺傷性武器的詳細製作指南。 (新智元)
Google I/O 2025:搜尋帝國的自我革命與AI翻身仗
上世紀末,Google的搜尋引擎永遠地改變了人們獲取資訊的方式。25年後,這家如今的科技巨頭大膽宣稱:未來的搜尋將是一個完全由AI驅動的世界。今年5月,Google在其最大的開發者盛會Google I/O上推出了AI重塑的搜尋引擎,使用者可以向AI提出複雜的問題,甚至加以追問,而AI會進行相應的搜尋並回答你的提問。這不僅是巨頭的一場自我革命,更是對Perplexity和OpenAI等AI新貴的強力回應。同時發佈會還推出了Gemini 2.5 Pro模型、XR眼鏡等一連串重磅更新,其實Google在技術上的實力毋庸置疑,但其產品化能力卻一直備受質疑。我們在I/O現場的明顯感受是:如今的AI之爭不再是拼誰的模型跑分高,而是拼誰能先把AI真正用起來。生成式AI的熱潮正在褪去,AI Agent的時代已經開始了。但在這些技術突破之外,大家更關心的問題是:Google,還是那個能夠顛覆行業的Google嗎?這家公司有技術、有人才、也有錢,但近幾年來推出的產品好像總差點意思:雖然Transformer架構誕生於Google,但從中受益最多的卻是OpenAI;如NotebookLM這樣的產品,儘管初看驚豔,但似乎在商業應用上有些“雷聲大雨點小”。本篇文章我們就藉著這次I/O的機會聊聊,現在AI產品的競爭,到底是在拼什麼?01Google I/O更新內容Chapter 1.1 AI Mode重塑搜尋從去年I/O開始,Google加入了名為AI Overview的AI生成摘要功能。雖然AI Overview曾因為“建議在披薩上塗膠水”等回答被使用者吐槽,但Google表示,這項功能的月活躍使用者已經超過15億。它現在也將從實驗室畢業,推廣至200多個國家和地區、支援40多種語言。本次更新的AI mode則是AI Overview功能的一次升級,是Google最核心的搜尋功能結合了Gemini 2.5模型後的產品:Google不再是簡單地提供AI總結,而是可以回答覆雜、多步驟的問題,未來還會支援更複雜的體育與金融資料問題,甚至呼叫使用者的個人資料生成個性化的答案。AI Mode也加入了一個叫做Deep Search的功能,與OpenAI的深度搜尋對標,在收到使用者的問題後生成一份帶引用來源的完整報告,能節省好幾個小時的研究時間。Google官方建議,Deep Search適合於購物等容易犯選擇恐懼症的場景。AI接管購物流程的例子比比皆是,AI試穿就是一個很有趣的例子:AI Mode下,使用者上傳自己的照片,AI就能模擬你穿上某件衣服的樣子。Google說這個“試穿”功能可以識別不同布料、彈性和3D形狀,現在已經在Labs中上線。幾個月後,Google還會推出一個“自動下單”工具:當商品降到使用者設定的價格後,AI Agent可以主動幫你下單(當然,最終仍需使用者點選確認)。未來還會有“Search Live”功能,能直接結合手機的攝影機,讓AI根據使用者眼前看到的東西即時對話、提供資訊。從去年的AI Overview到今年的AI Mode,再加上各項套用多模態模型,基於Agent的功能,萬變不離其宗的都是Google核心的搜尋技術,也說明了一點:Google意識到,它必須重新定義搜尋,才能在AI時代保住它的地位。過去二十年,“搜尋等於Google”,這是一個毋庸置疑的事實。但進入生成式AI時代後,一切開始動搖。2022年ChatGPT剛上線的時候,Google立刻拉響紅色警報,意識到AI正在威脅它的舒適區。但那時候,Google沒怎麼動,畢竟它不是初創公司,手上捧著的是年營收超過2000億美元的搜尋業務,佔了全公司一半以上的收入。你很難指望這樣一個體量的巨頭,敢拿出“會幻覺”的AI,直接替代穩妥靠譜的搜尋引擎。於是,Google選擇了穩一點、慢一點。但三年過去,它卻不得不面對一個現實:搜尋這塊最核心的地盤,真的開始被類似Perplexity和OpenAI這樣的AI初創公司搶走了。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:隨著AI、GPT等新的工具和流量入口的出現,我覺得對Google、尤其是對華爾街最大的困擾是:Google還能不能保持它在搜尋上面的優勢地位?丟市場份額是一定的,但是丟到什麼程度、要付出的代價還不確定。今年五月的一起反壟斷案的庭審中,蘋果高管Eddy Cue承認:Google的搜尋流量在過去22年裡首次出現下滑,因為越來越多使用者開始用AI搜尋替代傳統搜尋。這對Google的打擊,尤其在資本市場上是巨大的,我們會在最後一章展開分析。Google在本次I/O的發佈中,便是在用這一整套AI搜尋系統守住它的護城河——這不僅是技術的更新,更是使用者習慣的重塑。但是,這不可避免的也會涉及智慧財產權的問題以及和內容出版商之間的漫長博弈;而這也將是我們接下來關注的重點。Chapter 1.2 Gemini能力提升對於關注I/O的開發者來說,搜尋以外最讓人興奮的更新應該是Gemini 2.5的各大新功能。GoogleDeepMind的CEO Demis Hassabis在展示Gemini 2.5的時候,重點強調了它能深度思考的能力,這個過程被稱為“Deep Think”。Deep Think採用了所謂的“平行推理技術”,允許模型在生成回答之前,探索多個可能的解答路徑,從而提高答案的精準性。Sergey BrinAlphabet Inc.聯合創始人兼董事:如果AI能夠在提供方案之前先深度思考,顯然會更加強大,而我們現在看到的只是AI能力的冰山一角。這些能深度思考的模型出現還不到一年時間,尤其是AI在其思考過程中還可以使用許多工具,甚至利用其他AI來改善最終輸出結果。因此,我認為這將是一個非常強大的範式。Google這次還給開發者帶來了兩個新的訂閱服務:月費20美元的Google AI Pro和月費高達250美元的Google AI Ultra,直接對標ChatGPT Pro和Claude Max(兩個服務各為200美元/月)。Ultra使用者可以使用Google最新的圖像模型Imagen 4和視訊生成模型Veo 3,還能搶先體驗最新AI能力,比如自動生成帶音效的視訊畫面。Shaun WeiHey Revia創始人ex-Google Assistant:無論是OpenAI的Sora,還是文生圖(Text To Image)、文生音訊(Text To Audio)等各種各樣的嘗試,大家都想達到一個目標:把大腦裡面想像的東西變成電影的畫面。我覺得在Google的發佈會上,我看到了真正把想法變成視訊的演示。對於大部分使用者而言,Gemini Live的攝影機和螢幕共享功能也已經在移動裝置上開放了。使用者可以邊走路邊拍攝周圍街景,直接問Gemini:“這棟建築是誰設計的?”或“這是什麼風格?”,而AI會基於手機即時畫面回答問題,幾乎沒有延遲。該功能背後依託的是Google的多模態AI系統Project Astra,它能理解圖像、語音、文字,並與你進行自然對話。不久之後,Gemini Live還將與各項Google的效率產品整合。使用者可以邊對話,邊建立日程、生成路線或安排待辦事項。而Project Astra這個多模態系統,其實也寄託了Google在AI上最大的野心。它本身並不是一個面向消費者的產品,DeepMind的Greg Wayne將它看作一輛“概念車”,展示Google對未來AI助手的全部想像。它背後的目標只有一個:打造一個真正通用、懂你、會幫你做事的AI助手。在I/O上,Google宣稱Astra不再只是被動等使用者提問,而是自己判斷什麼時候說話、說什麼話。比如你正在寫作業,它能看出你哪裡算錯了,直接提醒你;又比如你在間歇性斷食,它甚至會在你打破禁食時間前問,你確定你現在應該吃東西嗎?Hassabis將Astra稱為讀空氣的AI(reading the room),認為這才是真正的助理。Project Astra的很多功能,未來會逐步下放到Gemini和其他Google產品中。但實際上已經有一個應用場景呼之慾出了,這就是眼鏡。Chapter 1.3 XR眼鏡今年I/O展示的硬體更新並不多,但眼鏡可以說是大家關注的主角。在I/O上,Google展示了和三星、Gentle Monster、Warby Parker等品牌合作開發的一款樣機。這幅XR眼鏡叫做Android XR,並且搭載了Gemini AI。演示上展示的幾個功能包括了即時翻譯、導航輔助、視覺識別等等。我們也在現場體驗了這款XR眼鏡。眼鏡本身佩戴感很好,與普通眼鏡重量幾乎無差。戴上眼鏡後,除了發佈會視訊中演示的與Gemini交流、播放音樂之外,還可以使用Gemini鑑賞油畫、根據風景圖片分辨並制定相應地點的旅行計畫等。雖然並沒有體驗到發佈會演示中用XR眼鏡看地圖和即時翻譯的功能,不過總體而言,這個體驗很新奇,也很符合大眾對XR眼鏡的期待。當然,Google這次一口氣發佈了十幾項更新,聚焦在AI及各類開發工具。這就比如說可以基於瀏覽器執行複雜任務的多模態AI agent Project Mariner。作為做中英文內容的創作者,我們最感興趣的功能之一,其實就是跨語言的即時轉換。如果一個AI助手能在我們錄製播客或剪輯視訊時,直接把中英文內容自然地同步處理並轉寫,那將極大提升我們的效率。以上是粗略的體驗分享,這也體現了Google這樣的巨頭在AI時代的獨特優勢:行業領先的模型、全球搜尋流量,和強大的底層技術。用Google自己的話說,這種規模(scaling)是初創公司很難趕上的。接下來聊聊開發者希望從今年的AI模型更新中看到的新能力。02開發者想看到什麼?Kimi KongEnergent.ai聯合創始人ex-DeepMind:Google I/O讓我印象最深的是Google對於它旗下模型和產品的橫向廣度與縱向深度的一個整合。這讓我覺得,Google對於未來已經進行了全面佈局。Kimi Kong曾在GoogleDeepMind工作,參與過大語言模型評測和AI Agent兩個關鍵項目。他認為,本次Google I/O的最大亮點之一,是Google展示的“大一統模型”的雛形。從廣度上來看,只需要一個Gemini模型,就可以執行問答、程式碼生成、多輪對話、圖像識別、視訊理解等多種任務,涵蓋了開發者在不同模態下的主要應用場景。從深度上來說,Google不僅提供模型能力本身,還進一步展現了這些能力如何被落地到真實產品中,給開發者留下了極大的想像空間。比如,在搜尋這個縱嚮應用中,AI不僅能在雲端幫助使用者生成結構化答案,還可以部署到可穿戴裝置。就像我們在體驗XR眼鏡的時候,只要是視野內看得到的問題,就可以向Gemini提問,而Gemini會幫我我們進行搜尋。然而,在眾多更新裡,其實很難看出最後哪些能夠在產品化上實現成功。Shaun WeiHey Revia創始人ex-Google Assistant:Google的產品一直是它的弱項,大家都知道這點。所以我覺得,Google這次就是要圍繞它強勁的Gemin模型來打造自己的生態。Shaun Wei曾在Google負責語音助手項目。他告訴我們,從外部來看,Google目前的策略就是一次性發佈大量產品。一旦發現哪個產品真正跑的出來,就可以再加大投入。比如,2023年7月發佈的NotebookLM,一開始只是一個相對小的項目,但面向公眾開放後卻收穫了大量好評,於是Google才開始傾斜資源。而Google自己強大的技術是毋庸置疑的,主要有幾方面優勢:1.硬體生態2.自己的雲服務Google Cloud以及資料中心3.海量可以用於訓練AI的資料4.強大的演算法團隊Shaun WeiHey Revia創始人ex-Google Assistant:Google在底層的時候就已經比大部分公司有優勢了,基本上沒有多少公司能做這個事情。所以Google如果通過一年的努力變成整個模型的第一,我不會覺得奇怪。在Google提供了全端式服務之後,那些做AI Agent的初創公司還做得下去嗎?Shaun WeiHey Revia創始人ex-Google Assistant:對於To C的公司確實是影響會非常的大,因為大公司的模型能力很大,而且大部分巨頭最先考慮的就是面向C端使用者來擴大能力。其實很多簡單的功能,比如打電話,AI Agent只需呼叫一個工具就能做的事情,它開發的門檻是越來越低的。如果你解決的垂直賽道里邊,它的工具量特別的少,或者它對於整個商業、工作流的邏輯特別少的話,確實有可能會直接被大公司取代。Kimi KongEnergent.ai聯合創始人ex-DeepMind:百家齊放的狀態也給初創企業帶來了機會:正因為不同模型各有所長,才有了初創企業把不同模型整合、完成非常複雜的任務,並捕捉這個垂直且深度市場的機會。在聊完Google在技術層的突破後,我們再來看看,華爾街現在怎麼看待Google這家公司的。03華爾街想看到什麼?Google I/O首日,Google的股價跌了1.5%。5月21日(I/O的第二天),Google的股價開盤上漲5個點。各大銀行分析師都指出,Google的AI資產被低估了。I/O期間的發力,很可能是Google成功打贏這場AI競爭的核心。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:追重要的是Google的全端式服務(Full Stack),真正地利用好了Google所有AI能力,包括它現有的龐大的使用者群、它強大的分發能力(distribution)。把AI的能力完全地巢狀進來,變得特別的清晰。正如前文反覆提及的,這就是Google作為一家科技巨頭難以被超越的地方。在I/O之前,資本市場對Google一直有一個疑問:為什麼大部分突破性的技術都發源於Google,但從中收益、將這些研究產品化的卻是別人?可以說Google是起了個大早,趕了個晚集。Google現在終於在I/O期間初步證明了自己產品化的能力。然而,這並沒有解決Google的核心問題:AI搜尋可行,但卻不一定能夠盈利。過去Google之所以可以通過搜尋賺的盆滿缽滿,主要是因為廣告:使用者的每一次搜尋,其實背後都有一場無聲的競價戰。廣告商會通過關鍵詞付款,所以那些關於購物和比價的搜尋,都是Google源源不斷的印鈔機。但是在AI搜尋模式下,還仍然沒有一個投放廣告的方式。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:我試用了Google的AI mode,當我問它lululemon新出的裙子時,看不到任何能夠放廣告的地方,它也沒有想到插廣告的辦法,這也是業界的爭論點。我覺得,什麼時候大家找到了在AI對話裡面怎麼合理地去放廣告、收廣告,新的機制被搭建起來之後,這個問題才算解決。但除了I/O期間的股價變化之外,Google今年的股價其實一直沒有大幅度的突破,自二月達到52週最高點後就持續回呼。同時,川普4月初宣佈全球關稅之後,依賴於出海電商廣告業務的Google和Meta都受到很大影響,所以也在那段時間出現了下跌。但總體來說,五月之前股價的變化和Google公司本身的營運狀況關係並不大。5月7日,Google的股價卻迎來一次大幅下跌,最大的原因就是之前提到的蘋果高管Eddy Cue的發言,認為Google的搜尋業務正在受到AI威脅。但其實這裡還有一個更大的背景,就是Google正在面臨兩項由美國政府發起的重大反壟斷訴訟。第一起訴訟指控Google在搜尋引擎市場中濫用其主導地位,利用與裝置製造商和瀏覽器的默認設定協議,阻礙競爭對手的發展。第二起訴訟則聚焦於Google在數字廣告領域的行為,指控其通過收購和整合廣告技術平台,非法維持其在廣告市場的壟斷地位。這些訴訟不僅可能導致Google被迫改變其商業模式,甚至面臨拆分公司的風險。劉沁東(Bruce Liu)美國濟容投資CEO兼首席投資官:當然,這並不代表Google立刻就要被分拆,Google在這方面的訴訟非常有經驗,也花了很多錢在律所、法務團隊上。想要提起訴訟並真正拆分Google,會是一個非常耗時間的過程,即使需要5年、10年也不奇怪。但是,有了這麼多年打官司的經驗,控方也越來越理解Google在廣告科技(advertising tech)市場上的壟斷到底是怎麼實現的,這對Google造成的風險也確實是越來越大的。但是我認為,市場還沒有真正定價(price in)這點,如果這點變得越來越清晰,Google是有風險被拆分的,到時候會有新一輪的定價。04巨頭依然有難以比擬的優勢不管是從技術還是商業角度來看這次GoogleI/O的發佈會,大家的共識都是:巨頭確實具備難以比擬的優勢。在此之前,Google似乎沒有抓住這個競爭優勢,所以這次的發佈會,很大程度上給大眾吃了一劑定心丸。但就像我們採訪嘉賓分析的那樣,Google這個搜尋巨頭可能確實用AI“革了自己的命”,但這家公司真的還能保住自己的霸主地位嗎?對這個問題,它可能很難給出回答。就像Google很久沒路面的Google聯合創始人Sergey Brin說的那樣:由於AI的出現,我們很難想像十年後的網際網路,甚至十年後的人類世界。以上就是矽谷101對Google I/O以及Google自我革命的梳理,也歡迎大家留言你的想法與感受。 (矽谷101)
Gemini 2.5實現視頻理解重大突破:一口氣處理6小時視頻,任意視頻秒變互動網頁
Google的Gemini 2.5 Pro在視訊理解領域又有了重磅進展,現在可以一口氣處理長達6小時影片了!首先,硬實力槓槓的! Gemini 2.5 Pro 在十幾個學術視訊基準測試中取得了新的SOTA(業界最佳)成績,而且是在零樣本或少樣本訓練的情況下,直接叫板那些經過精細調優的專業模型。例如在YouCook2密集字幕生成和QVHighlights高光時刻檢索這類高難度任務上,表現都相當驚艷Gemini 2.5首次實現了原生多模態模型能夠將音訊視訊資訊與程式碼等其他資料格式無縫結合。不是簡單地「看懂」視頻,而是能基於視頻內容進行更深層的理解和創造。Gemini 2.5不僅在傳統影片分析上表現卓越,還解鎖了許多我幾個月前想都不敢想的新玩法,下面幾個例子,感受一下Gemini 2.5的視頻理解能力直接把影片變身網頁互動應用怎麼玩? 給Gemini 2.5 Pro一個YouTube影片連結和一段文字提示(例如告訴它如何分析影片)。模型會先分析視頻,產生一個詳細的“學習應用規格說明書”,提煉視頻中的關鍵點然後呢? 這份規格說明書再餵給Gemini 2.5 Pro,它就能直接產生這個學習應用的程式碼!實例: 看影片實現「視力矯正模擬器」應用影片一鍵產生p5.js動畫想幹嘛? 想要快速產生影片的動態摘要,或是進行自動化內容創作?Gemini 2.5 Pro: 只需一個提示,就能從影片中產生動態動畫,並保持與原始影片相同的時間順序實例:輸入一段倫敦地標遊覽影片(油管連結:https://youtube.com/watch?v=hIIlJt8JERI),Gemini就能產生p5.js程式碼,輸出一個動態動畫效果精準檢索與描述影片片段痛點: 從長影片找特定片段太費力?Gemini 2.5 Pro: 利用音視覺線索,辨識精準度遠超過過去。例如,在一個10分鐘的Google Cloud Next '25開幕演講影片中,它能準確識別出16個與產品演示相關的不同片段,並給出帶有時間戳的描述強大的時序推理能力(計數):挑戰: 不僅要看懂,還要理解時間序列上的微妙關係,例如計數Gemini 2.5 Pro: 例如它成功找出了主角使用手機的17個不同場景。這對於理解影片中的行為和模式至關重要最後,還有一個重磅實用更新:低媒體解析度(low media resolution)功能正式上線!這個功能現在已經登陸Gemini API,很快也會在AI Studio和Vertex AI上線它的牛X之處在於,能在性能損失極小的情況下,將每幀影片的視覺token從258個銳減到66個!這意味著什麼?在200萬token的限制下,以前能處理2小時的視頻,現在能處理長達6小時!處理效率大幅提升,成本也下來了!注意:Gemini 2.5 Pro & Flash視訊理解都很強 (AI寒武紀)
Gemini 2.5 Pro強勢更新並霸榜,Claude 3.7首次遭遇全方位碾壓!
Gemini 2.5 Pro 更新來了,這次的Claude 3.7被打得毫無還手之力!這兩天AI界最引人注目的新聞莫過於Google DeepMind推出的最新模型Gemini 2.5 Pro在LMArena各大排行榜全面登頂了!而且,這不僅僅是簡單的一兩個領域的領先,而是首次實現了文字、視覺、Web開發全方位霸榜,Claude 3.7甚至首次在WebDev Arena上失守。Gemini 2.5 Pro霸榜之路,勢不可擋!根據LMArena(@lmarena_ai)的消息,Gemini 2.5 Pro橫掃多個AI競技場:文字領域(程式碼生成、風格控制、創意寫作等)穩居第一;視覺能力碾壓其他選手,領先幅度高達70分;Web開發能力首次超越Claude 3.7,躍居榜首!這也是史上第一次有單一模型在文字、視覺和Web開發領域實現如此全面的統治。從LMArena公佈的資料來看,Gemini 2.5 Pro的表現不僅贏得了榜單,更贏得了社區使用者的高度認可。Google DeepMind的新大招:編碼能力再升級Google DeepMind官方發推表示,他們推出的Gemini 2.5 Pro(I/O版)在編碼能力上做了重大升級:你可以用一個提示詞建構更豐富的網頁應用、遊戲、模擬環境等等。他們還展示了通過@GeminiApp如何從自然界的圖片中快速生成對應的程式碼,展示了模型令人驚豔的創造力:不僅如此,Gemini 2.5 Pro在WebDev Arena中首次超過Claude 3.7,這個榜單主要測試模型建構吸引人的網頁應用的能力。Google官方也在推特中強調了這一突破:此外,這個版本還顯著提升了程式碼轉換、編輯能力和開發複雜智能體的表現。開發者們現在可以在Google AI Studio、Vertex AI以及Gemini App中使用這個強大的新工具。為什麼新版Gemini 2.5 Pro如此厲害?Gemini 2.5 Pro能有如此表現,並非偶然。官方表示,此次更新主要針對使用者在實際編碼中的痛點做了針對性的最佳化,例如:顯著減少呼叫工具的失敗率;增強了多模態推理能力;改進了視訊理解能力,在VideoMME基準測試中取得了高達84.8%的表現;全新升級的UI介面建構能力,讓Web應用更美觀、功能更強大。Google DeepMind CEO Michael Truell還特別強調了其內部觀察:「新版Gemini 2.5 Pro顯著降低了呼叫工具的失敗率,極大提高了實際編碼場景中的效率。」創造力的新天地Google發佈的官方部落格中表示,Gemini 2.5 Pro已通過Google AI Studio和Vertex AI全面向開發者開放,使用者可以在Gemini App中體驗各種豐富的功能,如Canvas功能。部落格地址:https://blog.google/products/gemini/gemini-2-5-pro-updates/TheQuickTechGuy(@GoogleDeepMind) 表示對Gemini 2.5 Pro能力的認可:「將自然圖片轉化為程式碼,這種創意真是太棒了!期待它在更複雜的Web應用和模擬環境中的表現。」而Andrew Hoskins(@NeuralNinjas)也對Gemini 2.5 Pro給出了很高的評價,同時好奇下一次能否有競爭對手@Grok出來挑戰一下:「Google DeepMind 🔥恭喜!不知道@grok能不能下一次奪回冠軍?」一些質疑和看法但並非所有人都盲目樂觀,比如Vladimir Goncharov提出了一些嚴肅的質疑,他表示新版本在幾個測試中反而有退步,比如:HLE測試:18.8 → 17.8 🔴GPQA:84.0 → 83.0 🔴SimpleQA:52.9 → 50.8 🔴雖然有一些指標有提升,比如LiveCodeBench和Aider,但整體上表現不如預期,他認為Gemini 2.5 Pro實際表現更像是Gemini 2.4。Gemini 2.5 Pro全面領跑儘管存在一些質疑,但Gemini 2.5 Pro此次的表現足以證明,它在文字、視覺和Web開發領域的綜合能力已經登頂,目前看來,短期內難有對手。這個最新版本甚至提前在Google I/O大會之前發佈,也引發了許多使用者對大會將有更多驚喜的期待。此外Google DeepMind首席科學家Jeff Dean還指出,Gemini 2.5 Pro的更新修復了03-25初始版本中人們注意到的功能呼叫問題:Gemini 2.5 Pro,AI領域的全新標竿,喊話Anthropic 將全面取代Claude 3.7成為當下最炙手可熱的模型:不服來戰!(AGI Hunt)
Google再次創造歷史:Gemini 2.5 Pro 通關《寶可夢:藍色》!
人工智慧寶可夢終於實現了! GoogleGemini 2.5 Pro 模型,剛剛成功通關了經典遊戲《寶可夢:藍色》GoogleCEO桑達爾·皮查伊(Sundar Pichai) 和DeepMind 負責人戴密斯·哈薩比斯(Demis Hassabis) 都發文祝賀,感謝了運行這個直播實驗的工程師Joel Z這事兒怎麼來的?首先得介紹下Joel Z,他是個30歲的軟體工程師,跟Google沒有直接關係。他搞這個實驗,是因為Gemini 2.5 Pro 出了個實驗版,大家就好奇它玩遊戲怎麼樣。於是,就有了這個"Gemini Plays Pokémon" 直播這個項目受到了另一個類似項目"ClaudePlaysPokemon" 的啟發。不過Joel Z 選擇了《寶可夢:藍》,一是因為Claude 已經在玩《紅》了,二是因為《藍色》是他自己玩的第一款寶可夢Gemini 是怎麼玩遊戲的?這才是重點。這個項目不是簡單地讓AI 瞎點,而是建構了一套自主決策系統:連接遊戲: 程式碼透過Socket 連接到mGBA 模擬器,能即時截圖、傳送按鍵指令(A、B、上、下等),還能讀取遊戲記憶體資料,例如玩家位置、寶可夢狀態、地圖資訊等AI 決策: 系統把帶網格線的遊戲截圖,加上從記憶體擷取的遊戲狀態資訊,發給Gemini 2.5 Pro。 Gemini 分析這些資訊,決定下一步操作專業「外援」: 有時候,Gemini 會把特定任務交給專門的「智能體」(Agent)來處理,以提高效率和可靠性執行與循環: 系統解析AI 的指令,轉換成具體的按鍵,傳送給模擬器,等遊戲畫面更新,然後重複這個過程它和Claude 玩寶可夢有啥不同?Joel Z 特別強調,不要把這看成是LLM 玩寶可夢的基準測試。兩者有很多不同:導航方式:  Claude 有自動導航工具。 Gemini 沒有,它需要自主決定目的地,然後要麼自己規劃路線,要麼呼叫一個路徑規劃智能體(Pathfinder Agent,其實是另一個Gemini 實例)來尋找最優路徑。這個智能體能獨立思考,甚至​​用BFS(廣度優先搜尋)這類演算法來規劃資訊獲取: 兩者接收到的遊戲資訊和使用的工具不同思維模式: 每個模型思考方式不同,各有擅長所以,別直接比較誰“更強”,不如都看看,感受下不同AI 的“思路”。 Joel Z 也坦言,他覺得Claude 的框架有些不足,想看看給Gemini 配上合適的工具後能走多遠關於「作弊」的討論直播過程中,有觀眾注意到Joel Z 會進行一些干預,還有那張小地圖,這算不算「作弊」?開發者干預:  Joel Z 解釋說,這不是作弊。項目還在開發階段,他的干預是為了改進Gemini 的通用決策和推理能力,而不是給具體關卡的提示(例如沒告訴它怎麼過月見山)。唯一接近“提示”的是,告知Gemini 需要和某個火箭隊員對話兩次才能拿到電梯鑰匙,這其實是原版遊戲的一個小“坑”,在後續版本修復了。他提到,Claude 項目在直播前也做過類似的幕後最佳化,Gemini 只是把這個開發過程公開了小地圖: 遊戲介面上方那張小地圖,是Gemini 探索區域的可視化。 Gemini 本身看不到圖像,只接收文字形式的地圖資訊。 Joel Z 認為,人類玩遊戲會自然形成心理地圖,目前的LLM 還做不到,小地圖是為了彌補這個能力缺陷,並非作弊限制Escape Rope / Dig:  Gemini 只有在低血量且沒有治療道具時才能使用「穿洞繩」或「挖洞」。這是因為LLM 還不太擅長判斷自己是真卡關了,還是暫時迷路。這個限制強制Gemini 更多依賴地圖記憶和路徑規劃**,能更清晰地展示其推理過程,避免一遇到困難就“抄近道”特色“智能體”除了核心的Gemini 模型,系統還引進了兩個專門的LLM 智能體:路徑規劃智能體(Pathfinder Agent): 如前所述,負責複雜區域(如火箭隊基地的旋轉地板迷宮)和一般場景的尋路推箱子策略師(Boulder Puzzle Strategist, BPS): 專門為「冠軍之路」的推箱子謎題設計。它能模擬推箱子的序列,找出有效的解法,提高了Gemini 應對這類挑戰的可靠性記憶體管理為了控制輸入給模型的Token 數量,系統大約每100 次操作就會對訊息進行一次總結,用總結替換掉原始訊息。未來計畫(暫定)Joel Z 的想法還包括:改進記憶體管理機制讓Gemini 能記筆記,記錄重要資訊給Gemini 更豐富的遊戲狀態資訊(進行中)探索讓觀眾在不劇透的前提下與Gemini 互動的方式等框架穩定後,進行一次完全無干預的通關嘗試嘗試用其他LLM(如Claude 或o3)進行對比實驗 (AI寒武紀)
劉慈欣稱DeepSeek或替代科幻作家;Gemini 2.5 Pro免費;馬斯克遭變性兒子狂噴:特斯拉是「龐氏騙局」
Google Gemini 2.5 Pro 免費開放,被譽為迄今最智能 AI 模型3 月 30 日,Google宣佈最新的 Gemini AI 旗艦模型 Gemini 2.5 Pro 將免費向所有 Gemini 應用使用者開放。此前,該實驗性模型僅限於 Gemini Advanced 訂閱使用者使用。Google本周早些時候發佈了 Gemini 2.5 Pro,並稱其為迄今「最智能的 AI 模型」,在推理能力上較前代版本進一步增強。新版模型支援多項功能,包括應用和瀏覽器擴充套件、檔案上傳,以及與Google Canvas 協作工具的整合。此前,Gemini 2.5 Pro 僅向支付 19.99 美元(約 145 元人民幣)月費的 Gemini Advanced 使用者開放。Google表示,決定讓所有 Gemini 使用者免費體驗該實驗版本,以便「盡快讓更多人使用最智能的模型」。目前,Gemini 2.5 Pro 已正式登陸 Gemini 官網,並將在未來幾天內陸續上線 Android 和 iOS 端的 Gemini 應用。近期的應用更新也改進了使用者體驗,使使用者可以更方便地選擇和記住當前使用的 Gemini 模型。(來源:IT之家)古爾曼:蘋果計畫將「健康」App 打造成你的 AI 教練、營養師、私人醫生3 月 30 日,古爾曼在《Power On》時事通訊中爆料,蘋果計畫將健康應用擴展為一個智能健康助手,繼續收集使用者裝置提供的資料,並通過 AI 教練根據這些資料提出個性化健康改善建議。為此,蘋果將在加州奧克蘭附近建立一個新設施,供醫生拍攝視訊內容。公司還在尋找一位知名醫生擔任新服務的主持人,目前這個服務在蘋果內部被暫定為「Health+」。食物追蹤將成為新應用的重要組成部分,這一功能領域蘋果此前未大力涉足,雖然目前的健康應用已允許使用者記錄碳水化合物和咖啡因等資訊,AI 助手還將幫助使用者更好地使用營養相關功能。蘋果還在研發利用裝置攝影機的新功能,比如利用 iPhone 背部攝影機分析使用者的鍛鍊情況並提供改進建議。未來,這一功能可能會與其他蘋果服務相結合。該項目是 Sumbul Desai 的優先事項,Desai 是一位已經領導蘋果健康團隊多年的醫生,蘋果首席營運官 Jeff Williams 也深度參與此項工作。目前,蘋果健康團隊「幾乎將所有精力」都投入到這一項目中,Desai 也希望避免過去該團隊在醫療應用上的失敗經驗。(來源:IT之家)Sam Altman 回應「吉卜力風格 AI 圖」的版權爭議:將施以限制OpenAI 於 3 月 25 日將 ChatGPT 的文生圖功能升級為 GPT-4o 模型,號稱能夠更精準地根據使用者文字指令生成圖片,還能迅速把使用者上傳的圖像轉換成漫畫、動畫等風格。相應功能引發海外社交媒體「AI 生成吉卜力工作室風格圖片」潮流,許多人試圖將自己的自拍轉為相應風格,就連 OpenAI CEO Sam Altman 也一度將自己的 X 平台頭像改為「吉卜力版本」。但是,對該功能的壓倒性需求給 OpenAI 的資源帶來了巨大壓力,促使首席執行官 Sam Altman 敦促使用者放慢腳步,並行文呼籲「需求太瘋狂的,我們的團隊需要睡覺。」3 月 30 日,由於使用者大量生成類似風格圖片涉及版權爭議,加上伺服器壓力激增,OpenAI 宣佈限制 ChatGPT 文生圖速率,並禁止通過提示詞直接生成吉卜力風格圖片。此外,原計畫向免費使用者開放的 GPT-4o 圖像生成功能也因需求過高而推遲上線,具體時間未定。(來源:IT之家)抖音首次公開推薦演算法原理,上線「安全與信任中心」網站3 月 30 日,抖音總裁韓尚佑宣佈「抖音安全與信任中心」網站正式上線,首次公開推薦演算法原理,並披露平台治理的稽核流程,包括如何應對謠言與網暴等挑戰。抖音介紹了兩種核心推薦模型:Wide&Deep 模型和雙塔召回模型。Wide&Deep 結合 Wide(記憶能力)和 Deep(泛化能力)部分,彌補協同過濾演算法泛化能力差的問題,避免資訊單一化。雙塔召回模型則通過向量化表徵學習,將使用者和內容特徵轉換為數學向量,並在統一向量空間內計算距離,判斷使用者興趣,實現精準推薦。推薦流程主要包括內容池、召回、排序三個環節。新視訊進入內容池後,召回階段利用雙塔召回模型快速篩選,最後排序模型進一步最佳化推薦。該體系確保使用者獲得更豐富、多樣的內容,同時受平台治理體系約束,以規範演算法推薦。(來源:新浪科技)劉慈欣稱 DeepSeek 暫時不太會替代科幻作家,未來在理論上完全有可能3 月 30 日,日前,2025 中國科幻大會在北京舉辦,主題為「科學夢想 創造未來」。在大會論壇上,科幻作家劉慈欣談到了 DeepSeek 對科幻文學的驅動和發展。據央視財經報導,對於 DeepSeek 未來是否有可能替代科幻作家的問題,劉慈欣表示,暫時不太會,但是再過 10 年、20 年,從理論上說完全可能代替科幻小說作家。劉慈欣認為,從科學的角度去講,所有人類作家的身上沒有什麼是不可被 AI 所替代的。在談到該如何去應對這種局面時,劉慈欣稱:「我個人認為首先停止自我安慰,坦然去面對技術的衝擊以及這種衝擊對我們的領域所造成的那種天翻地覆的影響。」劉慈欣對當代人工智慧下的科幻文學創作表示了悲觀態度「人們常說人工智慧沒有人的靈魂、人的感受,這不過是一個自我安慰。人自己的靈魂、感受,也是很多神經元細胞連接成複雜系統後湧現出來的。」他認為「未來科幻作家不會徹底消失,但會淪為非主流,類似於現在的皮影戲,人們的科幻創作會一直存在,但他不會成為那種一直受關注的主流內容」。(來源:快科技)長城汽車:已與宇樹科技簽訂戰略協議3 月 30 日,在電動汽車百人會論壇採訪間,長城汽車 CTO 吳會肖透露,目前長城已經與宇樹科技簽訂戰略協議。其中,宇樹科技負責運動控制和本體,長城負責上層應用開發,主要應用在工廠和汽車等場景。(來源:21 世紀經濟報導)李斌:蔚來在兩件事上很堅決,研發和換電3 月 30 日,在 2025 年中國電動汽車百人會論壇期間,蔚來創始人、董事長兼 CEO 李斌與媒體交流時強調,蔚來在兩件事上很堅決:一個是研發,一個是充換電網路。李斌指出,研發投入雖有周期,但效果將在 2025 年逐步顯現。2025 年,蔚來將發佈 9 款全新及大改款新車,其中首款交付的 ET9 搭載了超 17 項首發技術,包括「神璣」智駕晶片和 SkyOS 作業系統,這些技術不僅提升使用者體驗,還能顯著降低成本。李斌還透露,蔚來歡迎產業鏈合作夥伴基於 SkyOS 展開合作。在換電領域,李斌認為蔚來最大的教訓是換電站建設啟動較晚,若能更早佈局,將對銷量和使用者滿意度產生更積極的影響。蔚來計畫與寧德時代合作,採用換電雙網平行的方式,高端車型使用蔚來換電,中低端車型採用寧德時代巧克力換電,共同建構從電池研發到回收的閉環體系。李斌還強調,蔚來在充電領域同樣是中國最努力的車企,擁有全國最多的充電樁佈局,不應將充電和換電對立起來。(來源:快科技)中國首個通用人工智慧大型社會模擬器發佈:可精準推演社會運行規律3 月 30 日,據《科技日報》報導,在 2025 中關村論壇年會通用人工智慧論壇上,中國首個通用人工智慧大型社會模擬器正式發佈,意味著交通等相關領域的管理與決策有了預演模型。「大型社會模擬器」是一個社會級智能體學習和實踐的模擬模擬平台,可利用多智能體價值觀建模和數字孿生技術精準推演社會運行規律,模擬不同社會決策的長遠影響,為政府決策提供前瞻性預演。據北京通用人工智慧研究院多智能體實驗室負責人陳爍介紹,大型社會模擬器的長處,是將那些既在情理之中又在意料之外的決策影響提前「捕捉」出來。研發團隊採集大量脫敏社會運行資料,匯聚人口、企業、經濟發展、交通運行和基礎服務設施等 5 大主題,囊括企業特徵、人口結構、消費行為、社會經濟狀況等 10 余類核心領域以及 170 余項指標。基於這些資料,大型社會模擬器全面建模個體、組織、市場、政府、交通、公共資源六大社會要素,並實現互動演化。(來源:IT之家)古爾曼:蘋果計畫年內推出搭載 M5 晶片的 iPad Pro 和 MacBook Pro3 月 30 日,根據彭博社記者馬克・古爾曼的《Power On》通訊透露,M5 晶片 iPad Pro 已進入最後測試階段,計畫於今年發佈。該款 iPad Pro 將成為首批搭載下一代 M5 晶片的裝置之一。其稱,新版本的 iPad Pro(型號 J817、J818、J820 和 J821)正處於蘋果內部的最終測試階段,預計將在今年下半年開始生產。蘋果公司還已開始開發配備內部數據機晶片的 M6 版本,預計將於 2027 年發佈。根據爆料,MacBook Pro 將在今年晚些時候推出 M5 晶片版本,這一更新預計會與 2024 年發佈的 M4 處理器和 2023 年發佈的 M3 處理器時間相近。與此同時,M5 版 MacBook Air 也在研發中。關於重大的新款 Mac 設計,古爾曼預測 MacBook Pro 將不會在 2026 年前進行改版。(來源:IT之家)科學家可能找到了阻止禿頂的方法3 月 30 日,據外媒報導,研究人員發現,負責頭發生長的毛囊幹細胞 (HFSC) 需要一種起到「保鏢」作用的蛋白質 MCL-1。如果 MCL-1 因為壓力、衰老、抗癌藥物或遺傳等降低水平,HSFC 會逐漸筋疲力盡最終走向死亡,也就不會長出新頭髮了。研究人員通過關閉生成 MCL-1 蛋白質的基因並剔除實驗鼠的現有毛髮演示了其作用。他們發現 HFSC 存活了一段時間,但最終因為觸發壓力訊號 (P53) 而走向死亡。研究報告發表在《Nature Communications》期刊上。最新發現為治療和預防脫髮開闢了新的研究方向。(來源:solidot)馬斯克遭變性兒子狂噴:火星移民是噱頭,特斯拉是「龐氏騙局」3 月 30 日,據外媒報導,埃隆・馬斯克的變性兒子(現為女兒)薇薇安・威爾遜最近在與主播哈桑・皮克時長兩小時的直播中,談到了她童年時期父親的行為、他的火星殖民計畫,甚至還談到了他的遊戲水平。薇薇安說:「我看到他工作的時候,大多數情況下他就是在車裡對員工大喊大叫,而我們在一旁驚恐地看著,他簡直是在聲嘶力竭地叫嚷。」她稱馬斯克是一個「沒有安全感的小丑」和自戀狂,還補充說有些人「活該有冒名頂替者綜合徵(總覺得自己名不副實)」。薇薇安聲稱特斯拉的營運模式就像龐氏騙局,她以該公司「過高的市盈率作為證據」。她說:「查一查市盈率,然後再把特斯拉的股票和其他汽車公司的股票對比一下。它根本不是一家汽車公司,而是一個龐氏騙局。」她還認為馬斯克雄心勃勃的火星殖民計畫不過是一個行銷噱頭。她表示:「大家聽著,這是不會實現的。這就是一個行銷騙局,儘管隨便在Google上一搜就能揭穿它,但不知怎麼的,大家還是都上當了。」薇薇安還毫不留情地批評了馬斯克的遊戲表現。威爾遜說:「他玩得太爛了,簡直爛透了。」她還稱自己的父親「很尷尬」。 (極客公園)
Google地表最強模型深夜來襲!Gemini 2.5 Pro發佈即屠榜,程式碼推理殺瘋了
【新智元導讀】Gemini 2.5 Pro,剛剛深夜上線了!這個「思考」模型專為複雜任務打造,推理能力強大,一經誕生就橫掃各大榜單、拿下各類TOP 1,還創下了歷史上最大分數飛躍紀錄。就在剛剛,Google的全新模型Gemini 2.5 Pro,果然深夜上線了!Gemini 2.5 Pro是一個「思考」模型,能夠在回應前先進行思考推理,從而提升性能,並改善精準性。Google稱,它是世界上最強大的模型,具備統一的推理能力,以及使用者所喜愛的Gemini的所有功能(長上下文、工具等)。它在多個基準測試中達到了SOTA水平,並且以顯著的優勢在LMArena上排名第一。現在,Gemini 2.5 Pro已經登頂了Arena排行榜的第一位,而且創下了歷史最大分數飛躍,比Grok-3/GPT-4.5整整高出了40分!在代號「nebula」的測試中,它也橫掃所有類別奪得第一,並且獨攬數學、創意寫作、指令遵循、長查詢和多輪對話五大領域的冠軍!在困難提示詞和程式設計兩大領域,它與Grok-3/GPT-4.5拿到了並列冠軍,而且在所有其他比拚中都以微弱優勢勝出,成功問鼎榜首!此外,Gemini 2.5 Pro還成功登頂了視覺競技場(Vision Arena)排行榜榜首!在網頁開發領域,它也同樣大放異彩,成功斬獲網頁開發競技場(WebDev Arena)亞軍寶座!它是首個實力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是實現了質的飛躍。這一次,Google的模型又展現出巨大的飛躍,OpenAI、Anthropic、DeepSeek等競爭對手,在多久時間內會趕上?目前,Gemini 2.5 Pro已在Google AI Studio和Gemini應用中,向Gemini Advanced使用者開放,並將很快在Vertex AI上推出。而它的定價方案,會在未來幾周內公佈,使用者可以在更高使用配額下,將模型應用於大規模生產環境。網友實測後發現,它果然實力驚人,在所有模型中效果拔群,第一次嘗試就只用幾秒解決了一道難題。Gemini 2.5 Pro上線!Google表示,在AI領域,系統的「推理」能力不僅僅指分類和預測,而是指系統分析資訊、得出邏輯結論、融入上下文和細微差別,以及做出明智決策的能力。長期以來,Google一直在探索通過強化學習和思維鏈提示詞等技術,讓AI更智能、更具推理能力的方法。正是在此基礎上,他們在2月推出了第一個思考模型,Gemini 2.0 Flash Thinking。而今天,通過Gemini 2.5,他們結合了顯著增強的基礎模型和改進的後期訓練,讓模型達到了新的性能水平。推理和程式碼能力大幅提升Gemini 2.5 Pro展現出了強大的推理和程式碼能力,在常見的程式設計、數學和科學基準測試中均處於領先地位。另外,在各類需要高級推理能力的基準測試中,它都達到了SOTA水平。無需使用測試階段會增加計算成本的技術(如多數投票法),2.5 Pro就能在GPQA和 AIME 2025等數學和科學基準評測中表現卓越。而且,在不使用任何外部工具的條件下,它就在挑戰人類知識和推理能力的極限前沿「人類最後的考試」中取得了18.8%的精準率,達到業界領先。在程式設計能力上,Gemini 2.5相比2.0版本也實現了質的飛躍,而這,僅僅是個開始。2.5 Pro在建立視覺精美的網頁應用和AI智能體程式碼應用方面都表現卓越,在程式碼轉換和編輯領域中,也同樣實力出色。在智能體程式碼評估的行業標準測試SWE-Bench Verified上,Gemini 2.5 Pro靠使用自訂智能體組態,就獲得了63.8%的優異成績。以下這波demo,就展示了Gemini 2.5 Pro如何運用強大推理,僅通過一行提示詞,就能生成可執行程式碼,來建立完整的動畫和遊戲。在下面這個demo中,僅僅根據下面這行prompt,它就生成了一段p5js的互動式動畫,展示了「宇宙魚」的場景,並且還顯示了魚們都在想什麼。它還根據以下prompt,生成了一個無限的恐龍跑酷遊戲。按照要求,它生成了像素化的恐龍圖像和有趣的遊戲背景。隨後,Gemini 2.5 Pro還通過程式設計實現了分形可視化。它建立出了精細分形圖案的模擬程序,展現出了神奇的曼德布洛特集合。此外,它還能建構一個互動式氣泡圖,直觀展示出了每個大陸的經濟與健康指標隨時間的變化。或者用一段互動式的Javascript動畫,展示了旋轉六邊形內多彩的人工生命群體,並且按要求做成了「超新星星雲」的感覺。另外,它還能開發粒子系統模擬,給出了一個HTML檔案,創造出了反射星雲的沉浸式互動模擬場景。原生多模態和超長上下文Gemini 2.5繼承並行揚了Gemini 模型的優勢——原生多模態能力和超長上下文長度。自己發佈之初,2.5 Pro就支援100萬token的上下文窗口(而200萬token也即將推出!),性能顯著超越了前代模型。這能讓它理解海量資料集,並處理來自多種資訊源的複雜問題,包括文字、音訊、圖像、視訊,甚至完整的程式碼倉庫。最後,既然Google已經掏出了地表最強模型,接下來,就讓我們坐等OpenAI的反應了。 ( 新智元)